Day 3 生成式 AI 與自然語言處理

16th鐵人賽生成式ai

chuehnone

2024-08-17 14:12:32

1860 瀏覽

分享至

自然語言處理 (Natural Language Processing, NLP)

自然語言處理是從計算語言學 (Computational Linguistics) 發展而來，計算語言學透過電腦科學來理解語言原理，使電腦能夠分析和處理文字，並掌握其含義，包括說話者或作者的意圖和情感。
主要能細分兩個子領域，自然語言理解 (Natural Language Understanding, NLU) 和自然語言生成 (Natural Language Generation, NLG)

自然語言理解，透過句法和語義分析來確定句子的含義。 (註：句法等同狹義的文法，只關注文法結構)
自然語言生成，讓電腦能自行生成有含義的文字。

生成式 AI 與自然語言處理的應用

機器翻譯

以往的機器翻譯主要依賴於統計模型和基於規則的方法，這些方法在處理語言轉換時往往面臨流暢性和準確性不足的問題。生成式 AI 的出現，如 Google 的 Transformer 模型，徹底改變了機器翻譯的技術。這些生成式 AI 模型能夠更好地理解和生成自然語言，使得翻譯結果更加流暢、自然，並顯著提高了翻譯的準確性和語意內容。

文字生成

文字生成技術得益於生成式 AI 的快速發展，從早期馬可夫過程 (Markov Process) 和長短期記憶 (Long Short-Term Memory, LSTM)，到 BERT (Bidirectional Encoder Representations from Transformers)、GPT-2、LaMDA 等模型。這些生成式 AI 模型能夠理解並創造自然語言，使得文字生成在自動完成、聊天機器人、文字創作等場景中變得更加流暢與自然。

文字摘要

文字摘要是用簡短的內容，概括長篇文章。現在已從統計模型和基於規則的方法，逐步過渡到生成式 AI 模型的應用。生成式 AI，特別是基於 Transformer 的模型，如 BERT 和 GPT 系列，能夠深入理解文字的語意結構，並生成連貫性的摘要。這些生成模型不僅能自動取得關鍵內容，還能創造出符合上下文的自然語言描述，使得文字摘要更加準確且具有可讀性，常見在新聞摘要、文件簡化和研究論文概括等應用場景中。

問答系統

問答系統有兩種類型：

選擇題：由一個問題和一組可能的答案組成。目標是選擇正確答案。
開放問答：在開放問答中，模型通常透過查詢大量文字，以自然語言提供問題的答案，而不提供任何選項。

而傳統的問答系統依賴於預先定義的規則或基於資訊檢索的方法，這限制了它們的靈活性和準確性。隨著生成式 AI 的進步，在基於 Transformer 的模型，如 BERT、GPT-3 和 LaMDA，通過深度學習語言模型，能夠更好地理解問題的上下文，並生成精確且自然的回答。這些生成模型使問答系統能夠處理更複雜的問題，提供更準確的答案。

生成式 AI 與自然語言處理的挑戰

資料品質與數量

生成式 AI 在自然語言處理的內容品質，高度依賴訓練與測試模型資料的品質和數量。這些模型會需要大量資料來學習語言的模式和規則，但並非所有資料都同樣有用或可靠。例如，資料可能會有雜訊、不完整、不一致、有偏見或過時，這可能會導致產生的內容出現錯誤或不準確。

語言的複雜性與多樣性

生成式 AI 在自然語言處理中面臨著人類語言的複雜性和多樣性挑戰。語言並不是一個固定或簡單的系統，而是充滿變化和豐富內涵，且在不同文化、背景和領域之間存在顯著差異。語言中的歧義、反諷、俚語、習慣用語、隱喻等細微差別，常常難以被模型準確解釋或生成。此外，地區、方言和口音的差異會帶來不同的語法結構、詞彙、拼寫和發音，進一步增加了生成式 AI 在語言處理中的挑戰。